1
Introdução à Modelagem Generativa: Avançando Além da Discriminação
EvoClass-AI003Aula 8
00:00

Introdução à Modelagem Generativa: Avançando Além da Discriminação

Estamos nos movendo de modelagem discriminativa, que resolve tarefas de classificação e regressão aprendendo a probabilidade condicional $P(y|x)$, para o domínio sofisticado de modelagem generativa. Nossa meta central agora muda para estimação de densidade: aprender a distribuição de dados subjacente completa $P(x)$ em si. Essa mudança fundamental nos permite capturar as dependências intrincadas e a estrutura complexa em conjuntos de dados de alta dimensão, indo além da simples separação de fronteiras para uma verdadeira compreensão e síntese de dados.

1. O Objetivo Generativo: Modelar $P(x)$

O objetivo de um modelo generativo é estimar a distribuição de probabilidade $P(x)$ a partir da qual os dados de treinamento $X$ se originaram. Um modelo generativo bem-sucedido pode realizar três tarefas cruciais: (1) Estimação de Densidade (atribuir uma pontuação de probabilidade a uma entrada $x$), (2) Amostragem (gerar pontos de dados completamente novos $x_{new} \sim P(x)$), e (3) Aprendizado Não Supervisionado de Características (descobrir representações significativas e desemaranhadas em um espaço latente).

2. Taxonomia: Probabilidade Explícita vs. Implícita

Os modelos generativos são fundamentalmente categorizados por sua abordagem à função de verossimilhança.Modelos de Densidade Explícita, como Autoencoders Variacionais (VAEs) e Modelos de Fluxo, definem uma função matemática de verossimilhança e tentam maximizá-la (ou seu limite inferior).Modelos de Densidade Implícita, mais famosamente Redes Adversariais Generativas (GANs), ignorando completamente o cálculo da verossimilhança, aprendendo, ao invés disso, uma função de mapeamento para gerar amostras da distribuição $P(x)$ usando um quadro de treinamento adversarial.

Questão 1
Na modelagem generativa, qual é a distribuição principal de interesse?
$P(x)$
$P(y|x)$
$P(x|y)$
$P(y)$
Questão 2
Qual tipo de modelo generativo depende do treinamento adversarial e evita definir uma função de verossimilhança explícita?
Autoencoder Variacional (VAE)
Modelo Autoregressivo
Rede Adversarial Generativa (GAN)
Modelo de Mistura Gaussiana (GMM)
Desafio: Detecção de Anomalias
Aproveitando a Estimação de Densidade
Uma instituição financeira treinou um modelo generativo de densidade explícita $G$ com milhões de registros de transações legítimas. Uma nova transação $x_{new}$ chega.

Objetivo: Determinar se $x_{new}$ é uma anomalia (fraude).
Passo 1
Com base na estimativa de densidade de $P(x)$, qual medida estatística deve ser avaliada para $x_{new}$ para marcá-lo como anômalo?
Solução:
O modelo deve avaliar a probabilidade (ou verossimilhança) $P(x_{new})$. Se $P(x_{new})$ cair abaixo de um limiar pré-definido $\tau$, significando que o novo ponto é estatisticamente improvável sob a distribuição aprendida de transações normais, ele será marcado como uma anomalia.